HuggingGPT架構拆解

2025 iThome 鐵人賽

DAY 27

自我挑戰組

AI Agentu相關研究系列第 27 篇

17th鐵人賽

S1111132020

2025-09-02 14:25:14

205 瀏覽

分享至

HuggingGPT 的核心理念：
HuggingGPT由微軟與清華大學研究團隊提出，結合 ChatGPT 與 Hugging Face 的模型生態，透過 LLM 的規劃能力來調度不同的專用模型，完成複雜任務。
HuggingGPT 的設計思想：
ChatGPT（LLM）本身不一定擅長影像辨識、語音處理等專業任務，但它很擅長「理解需求、規劃流程、拆解任務」。
Hugging Face 則擁有大量專業模型（如影像分類、語音轉文字、影片生成等）。
HuggingGPT 架構的目標，就是用 LLM 來「調度這些模型」，像一個導演指揮演員。

HuggingGPT 的架構流程
整體運作可以分為四個階段：
任務理解（Task Planning）
使用者輸入一個複雜需求（例如：「幫我看這張圖片，描述內容，然後用英文寫一首詩」）。
ChatGPT 先進行任務分析，理解需求中涉及哪些子任務：
圖像理解 → 找模型做圖像分類或 captioning
文本生成 → LLM 自身可以完成
語言轉換 → 可能需要翻譯模型
模型選擇（Model Selection）
ChatGPT 根據 Hugging Face 模型庫中的能力，挑選最適合的工具。
HuggingGPT 中有一份模型描述清單（model descriptions），告訴 LLM：哪些模型可以做什麼事。
例如：
圖像 caption → BLIP 模型
語音轉文字 → Whisper 模型
翻譯 → MarianMT 模型
任務執行（Task Execution）
當 ChatGPT 規劃好步驟後，就呼叫 API，讓 Hugging Face Hub 上的專業模型來跑。
各模型輸出結果再回傳給 ChatGPT。
例如：
Whisper 把音訊轉文字。
BLIP 讀取圖片，輸出 caption。
ChatGPT 整合兩者，再生成最終的詩。
結果整合（Response Generation）
ChatGPT 收集所有模型的結果，進行最後的「包裝」與「統整」。
最終輸出對使用者來說是一個完整的答案，而不是分散的多個結果。

HuggingGPT 的技術要點
模型描述 (Model Description Prompting)
每個 Hugging Face 模型都有一個「自我介紹」，告訴 ChatGPT 它能做什麼。這讓 ChatGPT 可以根據描述選擇模型。
自然語言驅動
使用者只需要自然語言下指令，ChatGPT 負責把需求轉換成模型的輸入格式。
多模態協作
HuggingGPT 支援文本、語音、影像等多種模態的混合任務，因為它能靈活調用不同領域的模型。